Análisis gráfico

The greatest value of a picture is when it forces us to notice what we never expected to see. -John W. Tukey

La vista es el sentido más desarrollado en los humanos. Hemos evolucionado para identificar patrones y excepciones de manera visual con gran velocidad. Es por esta razón que el mapeo de información a propiedades visuales resulta tan poderoso. Tomemos por ejemplo la siguiente serie de datos:

##   x1 x2 x3 x4   y1   y2    y3   y4
## 1 10 10 10  8 8.04 9.14  7.46 6.58
## 2  8  8  8  8 6.95 8.14  6.77 5.76
## 3 13 13 13  8 7.58 8.74 12.74 7.71
## 4  9  9  9  8 8.81 8.77  7.11 8.84
## 5 11 11 11  8 8.33 9.26  7.81 8.47
## 6 14 14 14  8 9.96 8.10  8.84 7.04

¿Qué tan similares o disimilares son las series \((x_i, y_i)\) vs \((x_j, y_j)\) con \(i\neq j\)?

Ejercicio 1.1

Obten el mínimo, cuartiles y máximo para las \(x_i\), del mismo modo obtene el coeficiente de correlación entre \(x_i, y_i \forall i\in\{1,2, 3, 4\}\).

Hint 1: no hemos visto formalmente ninguno de estos conceptos así que diviertete explorando.

Hint 2: trata de no usar for loops.

##        x1             x2             x3             x4    
##  Min.   : 4.0   Min.   : 4.0   Min.   : 4.0   Min.   : 8  
##  1st Qu.: 6.5   1st Qu.: 6.5   1st Qu.: 6.5   1st Qu.: 8  
##  Median : 9.0   Median : 9.0   Median : 9.0   Median : 8  
##  Mean   : 9.0   Mean   : 9.0   Mean   : 9.0   Mean   : 9  
##  3rd Qu.:11.5   3rd Qu.:11.5   3rd Qu.:11.5   3rd Qu.: 8  
##  Max.   :14.0   Max.   :14.0   Max.   :14.0   Max.   :19
## [[1]]
## [1] 0.8164205
## 
## [[2]]
## [1] 0.8162365
## 
## [[3]]
## [1] 0.8162867
## 
## [[4]]
## [1] 0.8165214

Las series de datos parecen ser bastante similares. Llevemos el análisis un poco más a profundidad y grafiquemos los datos. Antes de esto, es necesario hacer un pequeño paréntesis para cubrir los básicos de graficación en R.

Gráficas en R

R cuenta con toda una suite de funciones de graficación en base-R. Sin embargo, nosotros trabajaremos con una librería que construye sobre las funcionalidades básicas, agregando una gran flexibilidad sintáctica. Esta librería se llama ggplot2 y viene incluida dentro de Tidyverse.

El modelo básico de graficación en ggplot2 contempla un llamado a la función ggplot—la cual genera un eje coordenado sobre el cual se irán agregando capas subsecuentes–junto con la colección de datos sobre la cual se realizarán las gráficas. El segundo elemento básico es un objeto tipo geom que servirá para mapear las distintas variables a elementos gráficos. La plantilla básica de visualización en ggplot2 tiene la siguiente forma:

ggplot(data = <DATA>) + 
  <GEOM_FUNCTION>(mapping = aes(<MAPPINGS>))

Una gráfica muy sencilla que compara el rendimiento de combustible en millas por galón (hwy) contra el tamaño del motor (displ) puede realizarse de la siguiente manera

ggplot(data=mpg) + 
  geom_point(mapping = aes(x = displ, y = hwy))

Podemos ver que la función aes (aesthetics) se encarga de realizar el mapeo entre variables y elementos gráficos. Los aesthetics a los que se pueden mapear los datos incluyen: colores, formas, tamaños, saturación, etc. Por ejemplo, si quisiéramos agregar el tipo de vehículo a la gráfica con tal de determinar valores atípicos podemos hacer lo siguiente:

ggplot(data=mpg) + 
  geom_point(mapping=aes(x = displ, y = hwy, color = class))

Si queremos modificar los aesthetics manualmente, podemos hacerlo afuera de la función aes.

ggplot(data=mpg) + 
  geom_point(mapping=aes(x = displ, y = hwy, color = class), size=5, alpha=.5)

Si quisiéramos comparar diferentes niveles de una variable categórica sobre la misma gráfica, podemos utilizar facets.

ggplot(data=mpg) + 
  geom_point(mapping=aes(x = displ, y = hwy, color = class)) +
  facet_grid(cyl ~ drv)

Una de las características mas interesantes de ggplot2 es que te permite agregar geomsde manera directa (incluso si estos utilizan diferentes datos).

ggplot(data=mpg) + 
  geom_point(mapping=aes(x = displ, y = hwy, color = class)) + 
  geom_smooth(mapping=aes(x=displ, y = hwy))
## `geom_smooth()` using method = 'loess' and formula 'y ~ x'

ggplot(data=mpg) + 
  geom_point(mapping=aes(x = displ, y = hwy, color = class)) + 
  geom_smooth(data = (mpg %>% filter(year==2008)),   
              mapping=aes(x=displ, y = hwy, group = drv), se=F)
## `geom_smooth()` using method = 'loess' and formula 'y ~ x'

ggplot(data=mpg) + 
  geom_point(mapping=aes(x = displ, y = hwy, color = class)) + 
  geom_boxplot(mapping=aes(x=displ, y = hwy, fill = drv))

Ggplot2 tiene más de 30 geoms, la mejor manera de explorarlos es tener a la mano un cheatsheet. Hay algunas gráficas que implican una transformación estadística. Por ejemplo, obtener una gráfica de barras por clase implicaría hacer un conteo previo del número de observaciones por clase.

ggplot(data=mpg) + 
  geom_bar(mapping=aes(x =class)) 

Si queremos proporciones en lugar de cuentas:

ggplot(data=mpg) + 
  geom_bar(mapping=aes(x =class, y=..prop.., group=1)) 

Si queremos elementos estadísticos más complejos, podemos hacer uso de stat_summary.

ggplot(data=mpg) + 
  stat_summary(mapping=aes(x =class, y=hwy),
               fun.min=min, fun.max=max, fun = median)

Finalmente, es posible transformar las coordenadas de las gráficas:

ggplot(data=mpg) + 
  geom_bar(mapping=aes(x =class, y=..prop.., group=1)) + 
  coord_flip()

Lo que nos deja con una plantilla final de visualización con la siguiente forma:

ggplot(data = <DATA>) + 
  <GEOM_FUNCTION>(mapping = aes(<MAPPINGS>), 
                  stat = <STAT>, 
                  position = <POSITION>) + 
  <COORDINATE_FUNCTION> + 
  <FACET_FUNCTION>

Al fin! Ahora estamos en condiciones de graficar los datos de Anscombe.

Ejercicio 1.2

Grafica las series de anscombe \((x_i, y_i) \forall i \in \{1, 2, 3, 4\}\) Hint 1: Usa la función multiplots para visualizar todas las series en un mismo grid Hint 2: No uses for loops

Solución:

Es evidente que las series son radicalmente diferentes, una conclusión a la que hubiera sido difícil llegar tan sólo observando los estadísticos de resumen de los datos. Por tanto, debemos entender a las visualizaciones como medios para abstraer información y comunicarla. En otras palabras, una visualización es un modelo que sirve como conducto entre el modelo mental del diseñador y el modelo mental de la audiencia. Para que la comunicación entre emisor y receptor sea adecuada, las visualizaciones deben cumplir con las siguientes características:

  1. Verdaderas Es decir, las observaciones están sustentadas por una investigación profunda y honesta.
  2. Funcionales Es posible para el observador llevar a cabo operaciones significativas basadas en las representaciones de los datos.
  3. Bellas En el sentido de ser atractivas, intrigantes y estéticas.
  4. Informativas Revelan información que sería difícil percibir de cualquier otra manera.
  5. Iluminativas Si entendemos y aceptamos la evidencia que presentan deben cambiar nuestra comprensión del fenómeno de análisis para mejor.

El potencial explicativo que pueden tener las gráficas es ilimitado, más aún si se agrega un elemento dinámico a las mismas.

De la misma manera, es necesario cuidarse de los siguientes errores comunes:

  • Énfasis en patrones: Identificar patrones interesantes aunque no sean reales. (apophenia)
  • Desarrollo de narrativas: hago una narrativa que se ajuste a lo que observo
  • Confirmación: toda nueva evidencia es soporte de mi conclusión previamente adquirida.

Veamos algunos ejemplos

Muertes por accidentes automovilísticos en EE.UU.

El siguiente estudio muestra una gráfica en donde se compara el incremento porcentual de muertes entre los diferentes estados de EE. UU. Los datos pueden ser obtenidos en la siguiente dirección.

Ejercicio 1.3.a

Explora los datos y estructáralos de tal manera que te sea posible replicar la gráfica (sólo las series numéricas).

## Parsed with column specification:
## cols(
##   YEAR = col_double(),
##   STATE = col_double(),
##   STATE.NAME = col_character(),
##   COUNTY = col_double(),
##   COUNTY.NAME = col_character(),
##   FATALITIES = col_double()
## )
## `summarise()` has grouped output by 'STATE.NAME'. You can override using the `.groups` argument.

Ejercicio 1.3.b

Replica la gráfica

Es correcto este análisis? ?Estamos saltando a conclusiones antes de tiempo? Un buen ejercicio es preguntarnos que otras variables pueden ser responsables del fenómeno que estamos observando. Una variable que definitivamente deberíamos tomar en cuenta para que el análisis está menos sesgado, sería el efecto poblacional o el número de automóviles en cada estado. Otra variable interesante podría ser la distancia promedio que recorren los individuos en cada estado. Es razonable pensar que entre más personas haya y mayores sean los traslados, la probabilidad de padecer un accidente automovilístico aumenta. Podemos obtener una serie histórica de la población por estado y grupo de edad de la siguiente dirección; de la misma manera, aquí tenemos eldiccionario de datos.

Ejercicio 1.3.c

Para las y los valientes, descargar los datos de la página proporcionada y utilizar los metadatos para obtener la serie agregada por año y estado. En caso de que este paso resulte demasiado complicado, pueden utilizar el archivo us_pop_data.csv para generar la variable: número de accidentes fatales por cada 100,000 habitantes:

\[ fat_{100k} = \frac{fat}{pop}\times100,000 \]

## Parsed with column specification:
## cols(
##   year = col_double(),
##   state = col_character(),
##   population = col_double(),
##   State = col_character(),
##   Abbrev = col_character(),
##   Code = col_character()
## )
## `summarise()` has grouped output by 'YEAR'. You can override using the `.groups` argument.

Ejercicio 1.3.d

Grafica los nuevos datos

Vemos que todos los estados han experimentado una disminución importante en el número de accidentes fatales!

Competencias de Ski

La siguiente gráfica contiene las velocidades alcanzadas en el Campeonato mundial de Skies en 2011. Pareciera que los hombres tienden a ser más rápidos que las mujeres, además de que los datos parecen formar grupos de esquiadores muy lentos o muy rápidos. ¿Es este el caso?

## Warning in data(SpeedSKi, package = "GDAdata"): data set 'SpeedSKi' not found

Ejercicio 1.4

Explora los datos y describe tus observaciones.

La razón por la cual existían dos agrupaciones ahora resulta clara. Las mujeres solo compitieron en dos de las tres categorías. El evento más rápido es ‘Speed One’ en donde resulta que las mujeres tienden a ser más rápidas que la mayoría de los hombres (además de que sus velocidades son muy similares entre sí).

Esto es otro ejemplo claro de variables cuyos niveles afectan la variable bajo estudio. Es fundamental investigar dichas interacciones para alcanzar una mayor comprensión del fenómeno. Recuerden, buenas respuestas llevan a mejores preguntas. El proceso de modelado es un flujo que incrementa el estudio de la complejidad de las interacciones entre los datos.

La riqueza de las naciones

Ejercicio 1.5

Explora los datos y describe tus observaciones.

Podemos ver que la construcción prematura de narrativas y la negligencia en el tratamiento de datos nos pueden llevar a conclusiones erróneas. Por tanto no te apresures a escribir un ‘titulo’ o ‘historia’ o diseñes una visualización inmediatamente después de que hayas encontrado un patrón, dato o relación. Detente y piensa. Busca otras fuentes y personas que puedan ayudarte a salir de la visión de túnel o sesgo de confirmación. Explora la información a varios nivele de profundidad y expansión. Busca factores extraños que pudieran ayudar a explicar tu teoría. Sólo en ese momento estarás lista para pensar en lo que quieres decir, como lo quieres decir, y la cantidad de detalle que necesitas que sea verdad dentro de los datos.

Espectro de verdad de un modelo. The truthful art, Alberto Cairo

Las buenas visualizaciones no deberían sobre simplificar la información. Necesitan esclarecerla. En muchos casos, dicho esclarecimiento, requiere de mayor información, no de menos. En el momento del análisis siempre pregúntate: comparado con que, quién, dónde y cómo.

Sugerencias para encontrar la mejor gráfica para la aplicación en cuestión:

  1. Piensa en la tarea que quieres realizar o el mensaje que quieres transmitir: Quieres llevar a cabo una comparación, ver cambios, flujos, obtener relaciones, o identificar patrones espacio temporales.
  2. Trata con diferentes gráficas.
  3. Ordena los componentes de las gráficas para que sea lo más fícil posible extraer sentido de las mismas. Si es posible, añade interactividad a la gráfica.
  4. Prueba los resultados.

A continuación, exploraremos todos los pasos que seguiremos para reducir al mínimo conclusiones erróneas y fomentar, en medida de lo posible, que nuestros resultados sean replicables y confiables.

Método científico

Dado que el objetivo de explorar fenómenos naturales es generar conocimiento, debemos soportar nuestra exploración en un ‘método’ que progresivamente nos lleve a una adquisición—de preferencia replicable—de dicho conocimiento. Uno de los principales ‘algoritmos’ para lograr esto comenzó a desarrollarse desde el siglo XVI y tiene sus bases en la visión empiricista de las ciencias y mecanicista del mundo. Los principales pasos de ese ‘algoritmo’, el cual denominaremos método científico se describen a continuación.

  1. Formulación de conjetura. Para que una conjetura sea adecuada, debe tener sentido, debe poder ser medible y debe estar conformada por componentes funcionales (si quitas uno de la ecuación, toda la conjetura se cae).
  2. Transformación de la conjetura en una hipétesis comprobable. Una conjetura que puede ser probable de modo empírico se denomina hipótesis.
  1. Desarrollo de experimentos controlados (siempre que sea posible) para generar datos que servirán para probar la hipótesis.
  2. Desarrollo de conclusiones soportadas por los resultados de los experimentos.
  3. Después de iterar múltiples veces se producen teorías.

Las buenas respuestas deben llevar a mejores preguntas!

Tipos de estudios

Ahora bien, el cómo plantear y ejecutar el método científico puede realizarse de distintas maneras, dependiendo de cómo se formule la hipótesis a probar, cómo se seleccionen el conjunto de variables a medir, la población a estudiar y el tipo de estudio a llevar a cabo.

Formulación de hipótesis

Como ya se mencionó, la hipótesis del estudio es aquella conjetura que puede ser empíricamente probada. Esta suposición, formulada previo a iniciar el estudio, debe incluir las variables de interés del mismo. Entiéndase por variable aquello cuyo valor puede cambiar de alguna manera.

Mínimamente, deben considerarse dos variables: 1. La variable independiente, también conocida como variable predictiva o explicativa. 2. La variable dependiente, también nombrada comúnmente resultado o respuesta.

Asimismo, pueden identificarse e incorporarse variables adicionales a estas dos en el modelo. Suelen ser variables que, como investigador, sí de antemano que pueden afectar el resultado, y por lo tanto las considero en el estudio para minimizar su impacto. éstas se conocen como variables de confusión.

Cuando existen estas variables que afectan el resultado del estudio, pero no las incluyo dentro del mismo, ya sea por desconocimiento/ignorancia o porque no se puede explicar su conexión con el fenómeno estudiado, entonces estamos hablando de variables escondidas o al acecho.

Tipo de estudio

Una vez formulada la hipótesis, ésta deberá ser contrastada con la realidad. Aquí el investigador se enfrenta con su segunda elección: qué tipo de estudio quiere realizar para lograr lo anterior.

El estudio puede ser de dos tipos: 1. Observacional cuando el objeto de estudio es medido o evaluado sin ser afectado; i.e. bajo condiciones no controladas o no previamente configuradas. En otras palabras, el estudio no interfiere en las observaciones.

Un estudio observacional únicamente puede establecer asociación o correlación entre variables. Dependiendo de cómo los datos son recabados, un estudio observacional podrá ser alguno de los siguientes:

  • Transversal, cuando los datos representan información de un punto particular en el tiempo.

  • Longitudinal, cuando los datos han sido recabados a lo largo de un periodo de tiempo (un semestre, un año, una década, etc.).

    El primero es más rápido en su diseño y ejecución, pero sus resultados no necesariamente son concluyentes. En tanto que el último suele resultar más costoso y difícil de ejecutar, pues implica el seguimiento a las personas u objetos de estudio (quizá durante mucho tiempo).

    Un estudio observacional también puede clasificarse como retrospectivo (si las observaciones se basan en datos del pasado) o prospectivo (si los datos son recolectados durante el estudio).

  1. Experimental, también conocido como experimento controlado, en el cual se busca minimizar la participación de variables de confusión, configurando las condiciones previas del estudio.

    Este tipo de estudios puede llegar a establecer conexiones de causalidad entre las variables. Aunque los hay de muchos tipos, la mayoría debe compartir ciertas características en común:

    a. Se observa un gran número de sujetos que son representativos de la población estudiada.

    b. Se configura de forma que, al menos, existen dos grupos de estudio:

  • Grupo experimental. En donde los sujetos son expuestos a cierto tipo de condición.

  • Grupo control. En el cual la condición es distintas al primer grupo, o bien, los sujetos no son expuestos a condición alguna (e.g. tratamiento placebo).

    Convenientemente, los sujetos son asignados aleatoriamente a cada grupo, de forma que se tenga representatividad en ambos.

    c. Una vez corrido el experimento, se mide y compara lo sucedido con los sujetos en ambos grupos. Si los resultados son notablemente distintos entre los grupos, puede concluirse que la condición bajo estudio tiene un rol importante en dichos resultados.

La decisión del tipo de estudio, entonces, dependerá mucho de los recursos disponibles, así como del objeto y relevancia del estudio.

Censo vs muestreo

Es mejor incluir a toda la población de sujetos de estudio (censo) o trabajar con una parte de ellos (muestra)? ésta representa la tercera decisión del investigador, previa a comenzar el estudio.

Además de sumamente costoso y tardado, un censo puede no resultar la mejor opción debido a que muchos individuos pueden ser difícil de localizar o de medir. éstos en particular, pueden representar outliers por presentar características muy distintas al resto de la población.

Realizar muestro suele resultar más sencillo y natural. No obstante, es sumamente relevante para el resultado del estudio poder determinar una muestra fiable. Para ello, se deben tomar en cuenta algunos posibles sesgos:

  • Muestreo conveniente: individuos más accesible son más propensos a ser incluidos en la muestra.
  • Falta de respuesta: cuando sólo una fracción no-aleatoria de la muestra es la que que responde o puede ser medida y, por lo tanto, dicha muestra pierde representatividad.
  • Respuesta voluntaria: cuando la muestra esta conformada únicamente por voluntarios, debido a su opinión sobre el asunto estudiado.

Dicho lo anterior, se describen a continuación los principales métodos de muestreo:

  1. Muestreo aleatoria simple. Selección aleatoria de sujetos dentro de la población total. Cada sujeto tiene la misma probabilidad de caer dentro de dicha selección.
  2. Muestreo estratificado. División de la población en grupos homogéneos (estratos), para la posterior selección aleatoria dentro de cada estrato.
  3. Muestreo por cluster. División de la población en clústeres (grupos heterogéneos dentro de sí mismos y similares entre cada uno de ellos), seguida de la selección aleatoria de algunos de esos clústeres para el muestreo de todas las observaciones.
  4. Muestreo por etapas. División de la población en clústeres, selección aleatoria de clústeres y muestreo aleatorio dentro de dichos clústeres.

Análisis de variables continuas

Como vimos en la sección anterior, concomitante a la definición de un estudio, se determinan las variables que describen al mismo. En esta sección, nos enfocaremos en las características principales de las variables continuas y en cómo analizar las diferentes características de sus distribuciones.

En principio, una variable continua puede tomar cualquier valor numérico sobre su rango (determinado hasta cierto punto por un grado de precisión realizable).

Algunos de los fenómenos que podemos observar cuando analizamos variables continuas son:

  • Asimetría

  • Valores atípicos

  • Multimodalidad

  • Huecos

  • Amontonamientos

  • Redondeo

  • Imposibilidades

  • Errores

El objetivo de las gráficas y los estadísticos de resumen, es darnos una idea de los elementos más fundamentales y formales de la distribución que estamos estudiando. Por esto, nos enfocaremos en mapear datos a propiedades visuales. El proceso de exploración de este tipo de variables puede resumirse en: Encontrar patrones escondidos en los datos y después observar desviaciones de dichos patrones. Buenas historias pueden surgir de la norma y de las desviaciones.

Medidas de tendencia central

Como vimos anteriormente, se pueden descubrir cosas interesantes simplemente calculando medidas de tendencia central (en dónde se concentra la mayor parte de los datos).

Moda

El estadístico de centralidad más sencillo de obtener es la moda. Es simplemente el valor que más veces aparece en la distribución (o el valor que maximiza la densidad en el caso de variables continuas). Distribuciones que tienen una única moda, se llaman unimodales, dependiendo el número de modas, una distribución puede ser bimodal, trimodal, o multimodal.

Mediana

La mediana es un estadístico que divide la distribución en dos mitades. La primera mitad comprendiendo valores que están por debajo de la mediana, la segunda mitad, valores que están por encima.

Media

La media, comúnmente conocida como ‘promedio’ es una ponderación uniforme de todos los valores que se encuentran dentro de la distribución. Si tenemos una colección de datos \(\mathbb{X}=\{x_1, x_2, \dots, \xn}\) entonces la media \(\bar{x}\) se define como:

\[ \bar{x}=\frac{1}{n}\displaystyle\sum_{i=1}^nx_i \] En general, dada una colección de datos, es relativamente sencillo calcular la media, mediana y moda. ¿Qué estadístico conviene más y cómo se relacionan entre ellos? Dependerá de los datos. Observemos tres distribuciones diferentes y discutamos:

Ejercicio 1.6.a

  • Utiliza los datasets UsingR::galton

  • Calcula la media, mediana y moda de ambas series

##         child   parent
## [1,] 68.08847 68.30819
## [2,] 68.20000 68.50000
## [3,] 69.20000 68.50000
  • Grafica un histograma para ‘parent’ y ‘child’ usando diferentes tamaños de bins (1, .5). que observas

Ejercicio 1.6.b

Repite el ejercicio anterior para el dataset mixR::Stamp

##           width
## [1,] 0.08602474
## [2,] 0.08000000
## [3,] 0.07900000
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

Ejercicio 1.6.c

Finalmente, repite el ejercicio anterior para el dataset ggplot2::movies con la variable length

##        length
## [1,] 82.33788
## [2,] 90.00000
## [3,] 90.00000
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

Vemos que la distribución tiene un gran sesgo

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    1.00   74.00   90.00   82.34  100.00 5220.00

Este fenómeno conocido como outliers o valores aberrantes puede ser distinguido con mayor facilidad usando un boxplot:

Es difícil ver que es lo que está pasando con el grueso de la distribución con valores tan extremos. Veamos que sucede si limitamos el eje de las X a 180 minutos.

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## Warning: Removed 392 rows containing non-finite values (stat_bin).
## Warning: Removed 2 rows containing missing values (geom_bar).

Vemos de nuevo, una distribución bimodal, con poca duración para los microfilms y una gran cantidad de observaciones que duran 90 minutos.

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## Warning: Removed 3 rows containing non-finite values (stat_bin).

Medidas de dispersión

De los ejemplos anteriores, podemos deducir que no basta con tener medidas de centralidad para conocer o caracterizar la distribución de los datos, es necesario también saber que tan dispersos se encuentran estos con respecto a nuestra medida de centralidad. Algunos de los estadísticos que nos permiten saber esto son:

Rango

Es la diferencia que existe entre el mínimo y máximo valor de nuestra distribución. Es una medida práctica que nos permite comparar rápidamente diversas distribuciones pero que es excesivamente sensible a valores extremos.

Percentiles

Si bien esto no es una medida de dispersión per-se, nos ayuda a entender en donde se acumulan los datos y a que velocidad. Un percentil \(p_i\) se define como:

\[ min_{i} \frac{\sum_{x<p_i}x}{\sum_xx} = p_i \]

Rango intercuartílico

Se define como la diferencia entre el tercer cuartil y el primer cuartil. Es en donde esperaríamos que se concentre más densamente el 50% de nuestros datos.

Varianza y desviación estándar

La varianza, \(\sigma^2\), es el promedio ponderado uniforme de las diferencias cuadradas entre los valores y su media. La desviación estándar \(\sigma\) es la raíz cuadrada de esta y por tanto se encuentra en las unidades originales de los datos. Si estamos obteniendo los valores de una muestra los estadísticos se calculan de la siguiente manera:

\[ \sigma^2 = \frac{1}{n-1}\displaystyle\sum_{i=1}^n(x_i - \bar{x})^2 \] \[ \sigma = \sqrt{\sigma^2} \] En muchas ocasiones es muy útil poner a todos los datos bajo un mismo rango de referencia, o controlar por su variabilidad. A este proceso se le llama estandarización. La variable entonces se traduce en algo conocido como z-score. La manera en la que se calcula es:

\[ z_i = \frac{x_i - \bar{x}}{\sigma} \]

Este índice nos puede servir enormemente para comparar valores de distintas distribuciones. Exploremos la distribución de la marginación en México.

## Parsed with column specification:
## cols(
##   .default = col_character(),
##   CVE_ENT = col_double(),
##   CVE_MUN = col_double(),
##   POB_TOT = col_double(),
##   ANALF = col_double(),
##   OVSEE = col_double(),
##   OVSAE = col_double(),
##   IM = col_double(),
##   LUG_NAC = col_double(),
##   AÑO = col_double()
## )
## See spec(...) for full column specifications.
## Warning: 25 parsing failures.
##  row     col expected actual                      file
## 1154 ANALF   a double  N. D. '../data/marginacion.csv'
## 1154 OVSEE   a double  N. D. '../data/marginacion.csv'
## 1154 OVSAE   a double  N. D. '../data/marginacion.csv'
## 1154 IM      a double  -     '../data/marginacion.csv'
## 1154 LUG_NAC a double  -     '../data/marginacion.csv'
## .... ....... ........ ...... .........................
## See problems(...) for more details.
## Warning: Removed 6 rows containing missing values (geom_point).
## Warning: Removed 2 rows containing missing values (geom_point).

Ejercicio 1.7

Identifica los estados con mayor varianza, obtén el número de outliers por estado (a una distancia de mas de 1.5 veces el rango intercuartílico con respecto a la media).

Ejercicio 1.8 Si moviéramos el municipio mas marginado de el estado con menor marginación promedio al estado con mayor marginación promedio, como se comportaría con respecto al resto de los valores del mismo estado (HINT: usa un z-score).

Cerremos esta sección con una nota de precaución:

Estimados que se hacen con poblaciones más pequeñas tienden a tener mayor varianza—dado que tienden a incluir, proporcionalmente, mayor número de valores extremos que cercanos a la media—que grandes poblaciones.

Para ilustrar este principio, tomemos una tabla que describe la prevalencia de hipertensión, diabetes y otras enfermedades relacionadas con sobrepeso en México. Esta tabla la podemos obtener en la página del INEGI, junto con los metadatos que describen las variables. Particularmente estamos interesados en la distribución de la variable:

  • DefunDiabetes Tasa de defunciones por diabetes por cada 100 habitantes (recuerden controlar por población para que los resultados sean comparables).

En la población de 20 años y más (P20ymas). Primero, veamos cual es la población promedio del 25% de lo municipios con menor tasa de defunciones:

Ejercicio 1.9

Obtén la mediana del 25% de los municipios con menor tasa de defunciones.

## Parsed with column specification:
## cols(
##   .default = col_character(),
##   P20ymas = col_double(),
##   CVOBE = col_number()
## )
## See spec(...) for full column specifications.
## # A tibble: 1 x 1
##   median_pop
##        <dbl>
## 1      1334.

Sumamente interesante, la media da valores inferiores a 2500, que es la población límite para que un poblado se considere rural! Excelente, tenemos una historia: vivir en el campo te permite tener mejor dieta, hacer ejercicio, mantenerte lejos del estrés y por tanto disminuir el riesgo de muerte producida por enfermedades relacionadas con el sobrepeso. Pero ¿realmente es este el caso?

Ejercicio 1.8

Obtén la mediana del 25% de los municipios con mayor tasa de defunciones.

## # A tibble: 1 x 1
##   median_pop
##        <dbl>
## 1      12889

Si bien, técnicamente hablando, estos poblados no se puden considerar rurales, una población de 12,000 habitantes difícilmente representa una ciudad. ¿Qué es lo que está pasando?

Ejercicio 1.9

Grafica DefunDiabetese vs P20ymas. ¿Qué puedes concluir del gráfico?

Análisis de variables categóricas

Siguiendo con la exploración dentro de los distintos tipos de variables, nos encontramos con las categóricas, también conocidas como cualitativas. Éstas, a su vez, se dividen en variables ordinales (aquellas que, aunque no-numéricas, presentan un orden inherente e.g. medalla deportiva: oro, plata, bronce) y regulares (aquellas cuyos distintos valores no presentan un orden e.g. nacionalidad).

Las variables categóricas suelen presentar algunas de las siguientes características:

  • Patrones inesperado de resultados Puede haber muchas más de algunas categorías que de otras. Algunas categorías pueden faltar por completo.

  • Distribuciones desiguales En estudios observacionales, puede presentarse alguna forma de sesgo e.g. demasiados hombres en una muestra de taxistas.

  • Categorías extra e.g. la variable “Género” podría registrarse como ‘H’ y ‘M’, o como ‘M’ y ‘F’, o como ‘hombre’ y ‘mujer’.

  • Experimentos desbalanceados Aun en experimentos cuidadosamente diseñados y ejecutados, existe la posibilidad de datos faltantes o inútiles.

  • Gran cantidad de categorías En estudios que incluyan preguntas abiertas, el número de respuestas puede ser bastante más grande que el esperado e.g. ¿Cuál es tu platillo favorito?

  • “No sí”, rechazos, errores y faltantes Hay datos que pueden no estar disponibles por diversas razones e.g. Encuestas de opinión. Los gráficos que resumen cuántos casos de cada tipo han surgido pueden ser útiles tanto para decidir cómo manejar los datos como para calificar adecuadamente a partir de los datos disponibles.

Ejercicio … Grafica los datos categóricos del conjunto de datos Titanic

Siempre debe pensarse en lo que se espera que muestren los gráficos antes de plasmarlos. Así, puedes uno sorprenderse de lo que ve y valorar más la información presentada.

Ejercicio … …

## Warning in data("BEPS", package = "effects"): data set 'BEPS' not found